Q 学习

注意：因为 SARSA 和 Q 学习都是 TD 方法，它们都有一个缺点，即使用非线性算法逼近时，可能无法收敛于全局最优。

阅读延伸